\section{Esperimenti} \label{esperimenti}
Terminato lo sviluppo dell'applicativo, abbiamo provato questo su alcuni pdf in nostro possesso, usati anche in altri elaborati come \textit{test suite} e concessi gentilmente dal prof Marinai.  I files erano divisi in tre cartelle: ``Icdar07'', ``Grec-03'' e ``Articoli scientifici''. Gli articoli in ciascuna cartella avevano l'elenco dei riferimenti rispettivamente: con numero tra parentesi quadre (``Icdar07''), con numero seguito da punto (``Grec-03'') e senza nessun tipo di elenco (``Articoli scientifici''). 
\\~\\
Per eseguire le prove ci siamo recati all'interno di un laboratorio della facoltà di Ingegneria dell'Università di Firenze, poichè con un indirizzo Ip interno dell' Università abbiamo avuto la possibilità di scaricare un numero maggiore di Pdf destinati alla ricerca, altrimenti non accessibili.
Le prove sono state eseguite su tutti i documenti, lasciando l'applicativo ad eseguire per alcune ore. Successivamente ne è stato scelto un sottoinsieme per la valutazione dei risultati ottenuti. In particolare sono stati scelti casualmente 20 documenti dalla cartella ``Icdar07'', 20 documenti da ``Grec-03'' e solo 2 da ``Articoli scientifici'', poichè sfortunatamente un gran numero di pdf in questa cartella non era in formato testo.
\\~\\
Per ciascun documento sono stati valutati i seguenti parametri:
\begin{itemize}
 \item \textbf{NO} - è il numero di riferimenti contenuti nel documento originale.
 \item \textbf{NC} - è il numero di riferimenti correttamente individuati. 
 \item \textbf{NT} - è il numero di titoli correttamente indivuati.
 \item \textbf{NL} - è il numero di risorse corretemente associate ai riferimenti.
 \item \textbf{NB} - è il numero di BibTex correttamente associati ai riferimenti.
 \item \textbf{NP} - è il numero di Pdf associati ai riferimenti che si è riusciti a scaricare. 
\end{itemize}

e quindi i seguenti Indici Statistici:
\begin{itemize}
 \item \textbf{$\frac{NC}{NO}$} - indica il numero di riferimenti trovati correttamente su quelli presenti nel documento originale
 \item \textbf{$\frac{NT}{NC}$} - indica il numero di titoli estratti correttamente sul numero di riferimenti correttamente trovati
 \item \textbf{$\frac{NL}{NT}$} - indica il numero di risorse associate correttamente sul numero di titoli correttamente estratti
 \item \textbf{$\frac{NB}{NT}$} - indica il numero di BibTex associati correttamente sul numero di titoli correttamente estratti
 \item \textbf{$\frac{NP}{NT}$} - indica il numero di Pdf scaricati correttamente sul numero di titoli correttamente estratti
\end{itemize}

\subsection{Risultati dei test}


	\begin{table}

		
	\begin{center}
	\begin{tabular}{|l|l|l|l|l|l|l|l|l|l|l|l|l|} \hline
Nome File & NO & NC & NT & NL & NB & NP & ~ & NC/NO & NT/NC & NL/NT & NB/NT & NP/NT \\ \hline
04378668 & 17 & 17 & 15 & 12 & 5 & 11 & ~ & 100,0\% & 88,2\% & 80,0\% & 33,3\% & 73,3\% \\
04378669 & 7 & 7 & 6 & 3 & 2 & 3 & ~ & 100,0\% & 85,7\% & 50,0\% & 33,3\% & 50,0\%\\
04378670 & 13 & 13 & 13 & 10 & 5 & 10 & ~ & 100,0\% & 100,0\% & 76,9\% & 38,5\% & 76,9\%\\
04378671 & 11 & 9 & 9 & 6 & 1 & 5 & ~ & 81,8\% & 100,0\% & 66,7\% & 11,1\% & 55,6\%\\
04378672 & 7 & 7 & 6 & 6 & 2 & 4 & ~ & 100,0\% & 85,7\% & 100,0\% & 33,3\% & 66,7\%\\
04378673 & 11 & 11 & 11 & 11 & 4 & 8 & ~ & 100,0\% & 100,0\% & 100,0\% & 36,4\% & 72,7\%\\
04378674 & 12 & 12 & 11 & 6 & 2 & 6 & ~ & 100,0\% & 91,7\% & 54,5\% & 18,2\% & 54,5\%\\
04378679 & 7 & 2 & 1 & 1 & 0 & 1 & ~ & 28,6\% & 50,0\% & 100,0\% & 0,0\% & 100,0\%\\
04378681 & 16 & 7 & 7 & 5 & 0 & 0 & ~ & 43,8\% & 100,0\% & 71,4\% & 0,0\% & 0,0\%\\
04378686 & 10 & 9 & 9 & 7 & 2 & 5 & ~ & 90,0\% & 100,0\% & 77,8\% & 22,2\% & 55,6\%\\
04378690 & 18 & 18 & 17 & 15 & 11 & 12 & ~ & 100,0\% & 94,4\% & 88,2\% & 64,7\% & 70,6\%\\
04378692 & 8 & 8 & 8 & 7 & 1 & 7 & ~ & 100,0\% & 100,0\% & 87,5\% & 12,5\% & 87,5\%\\
04378694 & 7 & 7 & 6 & 3 & 1 & 3 & ~ & 100,0\% & 85,7\% & 50,0\% & 16,7\% & 50,0\%\\
04378696 & 8 & 8 & 6 & 5 & 1 & 5 & ~ & 100,0\% & 75,0\% & 83,3\% & 16,7\% & 83,3\%\\
04378698 & 22 & 21 & 21 & 18 & 7 & 12 & ~ & 95,5\% & 100,0\% & 85,7\% & 33,3\% & 57,1\%\\
04378700 & 10 & 10 & 7 & 5 & 2 & 5 & ~ & 100,0\% & 70,0\% & 71,4\% & 28,6\% & 71,4\%\\
04378702 & 20 & 20 & 18 & 7 & 3 & 4 & ~ & 100,0\% & 90,0\% & 38,9\% & 16,7\% & 22,2\%\\
04378706 & 10 & 10 & 10 & 6 & 2 & 5 & ~ & 100,0\% & 100,0\% & 60,0\% & 20,0\% & 50,0\%\\
bertolani--18 & 14 & 14 & 13 & 6 & 2 & 5 & ~ & 100,0\% & 92,9\% & 46,2\% & 15,4\% & 38,5\%\\
luthy-08 & 14 & 14 & 14 & 10 & 5 & 9 & ~ & 100,0\% & 100,0\% & 71,4\% & 35,7\% & 64,3\%\\ \hline
Totale & 242 & 224 & 208 & 149 & 58 & 120 & ~ & 92,0\% & 90,5\% & 73,0\% & 24,3\% & 60,0\%\\ \hline
	\end{tabular}
	\end{center}
	\tiny{\caption{\textit{Risultati ottenuti nell'esecuzione di pdftoref su parte dei pdf presi dalla conferenza \textbf{ICDAR07} - The 9th International Conference on Document Analysis and Recognition.} }}
		\label{tab:icdar}
	\end{table}

	\begin{table}\label{tab:grec}
	\begin{center}
	\begin{tabular}{|l|l|l|l|l|l|l|l|l|l|l|l|l|} \hline
Nome File & NO & NC & NT & NL & NB & NP & ~ & NC/NO & NT/NC & NL/NT & NB/NT & NP/NT \\ \hline
1 & 18 & 17 & 14 & 13 & 5 & 11 & ~ & 94,4\% & 82,4\% & 92,9\% & 35,7\% & 78,6\%\\
100 & 2 & 2 & 1 & 0 & 0 & 0 & ~ & 100,0\% & 50,0\% & 0,0\% & 0,0\% & 0,0\%\\
109 & 5 & 4 & 2 & 4 & 0 & 2 & ~ & 80,0\% & 50,0\% & 100,0\% & 0,0\% & 100,0\%\\
116 & 16 & 16 & 13 & 12 & 8 & 7 & ~ & 100,0\% & 81,3\% & 92,3\% & 61,5\% & 53,8\%\\
128 & 15 & 9 & 7 & 5 & 5 & 4 & ~ & 60,0\% & 77,8\% & 71,4\% & 71,4\% & 57,1\%\\
13 & 19 & 18 & 15 & 15 & 0 & 16 & ~ & 94,7\% & 83,3\% & 100,0\% & 0,0\% & 106,7\%\\
142 & 30 & 29 & 28 & 19 & 15 & 13 & ~ & 96,7\% & 96,6\% & 67,9\% & 53,6\% & 46,4\%\\
154 & 10 & 10 & 10 & 5 & 1 & 3 & ~ & 100,0\% & 100,0\% & 50,0\% & 10,0\% & 30,0\%\\
176 & 11 & 11 & 9 & 6 & 4 & 4 & ~ & 100,0\% & 81,8\% & 66,7\% & 44,4\% & 44,4\%\\
188 & 5 & 5 & 5 & 2 & 0 & 2 & ~ & 100,0\% & 100,0\% & 40,0\% & 0,0\% & 40,0\%\\
193 & 7 & 7 & 7 & 3 & 3 & 1 & ~ & 100,0\% & 100,0\% & 42,9\% & 42,9\% & 14,3\%\\
199 & 26 & 26 & 22 & 16 & 10 & 10 & ~ & 100,0\% & 84,6\% & 72,7\% & 45,5\% & 45,5\%\\
211 & 13 & 13 & 12 & 5 & 4 & 3 & ~ & 100,0\% & 92,3\% & 41,7\% & 33,3\% & 25,0\%\\
244 & 9 & 8 & 7 & 2 & 0 & 2 & ~ & 88,9\% & 87,5\% & 28,6\% & 0,0\% & 28,6\%\\
25 & 10 & 10 & 8 & 6 & 3 & 6 & ~ & 100,0\% & 80,0\% & 75,0\% & 37,5\% & 75,0\%\\
317 & 10 & 9 & 9 & 4 & 1 & 1 & ~ & 90,0\% & 100,0\% & 44,4\% & 11,1\% & 11,1\%\\
341 & 15 & 15 & 12 & 8 & 4 & 7 & ~ & 100,0\% & 80,0\% & 66,7\% & 33,3\% & 58,3\%\\
38 & 11 & 11 & 7 & 5 & 3 & 5 & ~ & 100,0\% & 63,6\% & 71,4\% & 42,9\% & 71,4\%\\
50 & 26 & 26 & 25 & 16 & 5 & 9 & ~ & 100,0\% & 96,2\% & 64,0\% & 20,0\% & 36,0\%\\
75 & 15 & 15 & 15 & 7 & 2 & 6 & ~ & 100,0\% & 100,0\% & 46,7\% & 13,3\% & 40,0\%\\ \hline
Totale & 273 & 261 & 228 & 153 & 73 & 112 & ~ & 95,2\% & 84,4\% & 66,8\% & 27,8\% & 48,1\%\\ \hline
	\end{tabular}
	\tiny{\caption{\textit{Risultati ottenuti nell'esecuzione di pdftoref su parte dei pdf presi dalla conferenza \textbf{GREC03}- Fifth IAPR International Workshop on Graphics Recognition}}}
	\end{center}
	\end{table}
	

	\begin{table}\label{tab:articoli}
	\begin{center}
	\begin{tabular}{|l|l|l|l|l|l|l|l|l|l|l|l|l|} \hline
Nome File & NO & NC & NT & NL & NB & NP & ~ & NC/NO & NT/NC & NL/NT & NB/NT & NP/NT \\ \hline
thrun98 & 35 & 34 & 25 & 21 & 14 & 18 & ~ & 97,1\% & 73,5\% & 84,0\% & 56,0\% & 72,0\%\\
1.pdf & 16 & 16 & 16 & 13 & 6 & 5 & ~ & 100,0\% & 100,0\% & 81,3\% & 37,5\% & 31,3\%\\ \hline
Totale & 51 & 50 & 41 & 34 & 20 & 23 & ~ & 98,6\% & 86,8\% & 82,6\% & 46,8\% & 51,6\%\\ \hline
	\end{tabular}
	\tiny{\caption{\textit{Risultati ottenuti nell'esecuzione di pdftoref su parte dei pdf presi da \textbf{articoli senza nessun template} per l'elencare le voci bibliografiche.}}}
	\end{center}
	\end{table}
	
		\begin{table}\label{tab:totale}
	\begin{center}
	\begin{tabular}{|l|l|l|l|l|l|l|l|l|l|l|l|l|} \hline
	Cartella & NO & NC & NT & NL & NB & NP & ~ & NC/NO & NT/NC & NL/NT & NB/NT & NP/NT \\ \hline
	Icdar & 242 & 224 & 208 & 149 & 58 & 120 & ~ & 92,0\% & 90,5\% & 73,0\% & 24,3\% & 60,0\%\\ 
	Grec & 273 & 261 & 228 & 153 & 73 & 112 & ~ & 95,2\% & 84,4\% & 66,8\% & 27,8\% & 48,1\%\\
	Varie & 51 & 50 & 41 & 34 & 20 & 23 & ~ & 98,6\% & 86,8\% & 82,6\% & 46,8\% & 51,6\%\\ \hline
	\textbf{Media Totale} & 566 &	535	 & 477 &	336 &	151 & 	255 & ~ & \textbf{94,5\%} & \textbf{89,2\%} &	\textbf{70,4\%} & \textbf{31,7\%} & \textbf{53,7\%} \\ \hline

	\end{tabular}
	\tiny{\caption{\textit{Risultati totali per ogni cartella e tipologia e nell'ultimo rigo le media con i valori finali}}}
	\end{center}
	\end{table}
	



\subsubsection{Estrazione dei Riferimenti}
Dalla tabella 5 è evidente che si è ottenuto degli ottimi risultati nell'estrazione dei riferimenti bibliografici: in media il 94.5\% dei riferimenti presenti in un documento qualsiasi è estratto correttamente. Più nello specifico dai test da noi effettuati si evince il 92,0\% di correttezza negli articoli con indice tra parentesi quadre, il 95,2\% di correttezza negli articoli con indice puntato e il 98,0\% negli articoli senza indice. Questi risultati appaiono sorprendenti rispetto alle aspettative, poichè sembrerebbe più ragionevole pensare che più l'indice è ben definito più un algoritmo di questo tipo basato su regole si debba comportare meglio. Tutto si spiega alla luce del numero di test effettuati. In un campione di soli 20 articoli un caso pessimo pesa molto. Questo è quello che è successo nella valutazione degli articoli in Icdar07, mentre non è successo per gli articoli in Grec-03. Per quanto riguarda invece gli articoli senza indice va detto che un campione di 2 articoli non è affidabile e perciò il 98\% riscontrato è un po' fuorviante. Tuttavia è evidente che più del 90\% di correttezza ottenuto è un risultato molto soddisfaciente rispetto agli obiettivi prefissati. 

\subsubsection{Estrazione dei titoli}
Dalla tabella 5 è evidente che anche in questo caso si è ottenuto degli ottimi risultati nell'estrazione dei titoli dai riferimenti correttamente individuati: in media 89,2\% di risultati corretti è un risultato decisamente soddisfaciente. Anche valutando la correttezza di estrazione dei titoli rispetto al numero di riferimenti effettivamente presenti nel documento originale, un risultato del 83,2\% è da considerarsi un buon risultato, soprattutto considerando che l'euristica per l'estrazione del titolo è piuttosto semplice e decisamente migliorabile. 

\subsubsection{Collegamento del riferimento ad una risorsa Web}
Dalla tabella 5 si evince che in questo caso si è ottenuto dei buoni risultati nel tentativo di associare una corretta risorsa Web a ciscun riferimento basandosi sul titolo correttamente estratto: una media del 70,4\% di correttazza è da considerarsi un risultato più che sufficiente. Questo risultato diventa ancora più apprezzabile considerando che non sempre esiste disponibile sul Web una risorsa direttamente associabile al riferimento estratto dall'articolo. Si ritiene importante notare che questo risultato è stato possibile grazie al supporto del servizio offerto dal WebService di Google: ''GoogleSuggest''. Questo ci ha permesso di ricostruire/correggere il titolo prima di inserlo nella query di ricerca. Se da un lato si è migliorato complessivamente la percentuale di riscontro rispetto ai riferimenti trovati, dall'altro si è introdotto alcuni errori dovuti alla possibile inesattezza del suggerimento. Questo problema è però trascurabile rispetto ai miglioramenti ottenuti.

\subsubsection{Recupero BibTex}
Dalla tabella 5 appare evidente che in questo caso i risultati ottenuti, come previsto, sono scarsi: è stato possibile ottenere solo il 31,7\% di BibTex relativi a titoli correttamente estratti. La percentuale è ancor meno confortante se valutata rispetto ai riferimenti complessivi contenuti nei documenti, poichè scende al 26,7\%. Tuttavia questi risultati non soddisfacienti sono imputabili a due cause principali. La prima è che non sempre la risorsa Web associata al riferimento contiene il BibTex relativo, per esempio quando si tratta di un pdf immediatamente leggibile. La seconda è che di tutte le liberie scientifiche digitali presenti sul Web che possono contenere i dati di nostro interesse, il nostro applicativo è in grado di trattarne solo tre, le più frequenti: IEEExplore, CiteSeer e Portal.ACM . Poichè il BibTex è estratto direttamente dal codice HTML è necessario che sia ben specificato come leggerlo dalla pagina che descrive il documento: anche una semplice modifica del layout della pagina di uno dei siti trattabili potrebbe mettere in difficoltà l'applicativo.

\subsubsection{Recupero dei Pdf}
Dalla tabella 5 appare evidente che in questo caso i risultati ottenuti sono appena sufficienti: è stato possibile ottenere il 53,7\% di Pdf collegati al riferimento della bibliografia. Tuttavia, questi risultati appena sufficienti, diventano più che sufficienti se si considera che: 
\begin{enumerate}
 \item Non sempre c'è un Pdf disponibile on-line per il riferimento interessato.
 \item Nel caso in cui il documento si trovi in una libreria digitale non trattata dall'applicativo, questo non è in grado di scaricarlo.
 \item Il link al documento potrebbe essere non più disponibile per un qualsiasi incognito motivo.
\end{enumerate}
A questo punto è opportuno specificare che nella pratica si è ritenuto scaricati correttamente anche documenti Pdf che in realtà non sono stati resi disponibili offline. Infatti spesso capita che gli articoli associati al riferimento sebbene siano presenti sul Web, non siano liberamente consultabili. Questo è il motivo che ci ha spinto ad andare ad effettuare i test all'interno dell'università, ma che non è stato del tutto risolutivo. Infatti alcuni articoli che si tenta di scaricare sono accessibili solo dietro pagamento. Per questo motivo abbiamo ritenuto casi positivi anche quelli in cui il Pdf era scaricabile, ma non liberamente.


\subsubsection{Casi limite}
Oltre alle varie medie finali degli indici statistici reperibile in tabella 5, si va ad analizzare alcuni casi limite come ad esempio il caso pessimo e caso ottimo: questo perchè a volte ci possono essere degli articoli in cui le euristiche di pdftoref possono non venire soddisfatte, generando risultati a bassa percentuale oppure viceversa casi in cui le eurisitche e gli accorgimenti adottati per la ricerca nel web hanno portato a generare un html speculare alla pagina di riferimenti.\\

\textbf{Caso Pessimo}\\
~\\
Ad esempio nell'articolo \textit{04378679.pdf} della tabella 2 si è stimata una percentuale di correttezza sull'estrazione delle voci del $28,6\%$ che si discosta in maniera significativa dal $94,5\%$ di media. Va da sè che questo può essere considerato il caso pessimo, vediamo come mai. Nel dettaglio su 7 voci bibliografiche effettive, sono state recuperate solamente le ultime 2. Questo perchè in tale unico esempio, è accaduto che la ricerca di tipo bottom-up della bibliografia tramite \textit{References} è risultata errata, in quanto dentro l'elenco di voci bibliografiche è contenuto nuovamente la parola \textit{References}. Ora per come si è implementata la localizzazione della bibliografia (sezione \ref{sec:ricercaref}) aiutandosi con la figura \ref{fig:bottomup}, è ovvio che se alla voce bibliografica numero sei vi è presente la parola References, l'eurista dell'applicativo tralascia tutte le altre voci sopra indicizzando solo le ultime due.\\
	
Per quando riguarda il caso pessimo sull'estrazione dei titoli è bene ricordare che l'indice è calcolato sulla base dei titoli estratti rispetto al numero di voci correttamente evinte ed esculdendo quelle che sono state scartate dall'applicativo. \'E bene quindi dire che per questo indice non è possibile portare un esempio a modello perchè come appare dai risultati l'euristica adottata sembra più stabile, generando una media dell' $89,2\%$, ma con una minor varianza. Questo perchè ogni voce bibliografica è chiamata a rispettare regole bene precise che ovviamente l'euristica segue (l'elenco degli autori prima del titolo, separazione dei campi tramite o punti o virgole etc.). Se si vuole fornire un caso, ci si potrebbe focalizzare sul file \textit{100.pdf} in tabella 3, che però non può essere considerato tale in quanto fornisce un risultato solo sulla base di due voci bibliografiche, che sono poche per essere considerarlo attendibile. Comunque anche in questo caso l'errore sull'estrazione dei titoli si riconferma in qualche modo affine al precedente: il delimitatore virgola o punto è ripetuto all'intero del titolo, così che il titolo: \textit{``Interactive Electronic Technical: General Content, Style, Format, and User-Interaction Requirements''} venga estratto come \textit{``Interactive Electronic Technical: General Content''}. Questo risulato comunque conferma le nostre aspettative perchè avevamo calcolato che i titoli con delimitatori all'interno sono una minoranza e i buoni dati della media avvalorano l'idea.\\ 

Quindi in sintesi i casi pessimi hanno portato alla luce che per quando riguarda la precisione sull'estrazione si ha un valore più alto di media, ma con picchi bassi di percentuale, data anche la natura più variabile dei \textit{template} per le bibliografie. Viceversa l'euristica per l'estrazione dei titoli ha una precisione leggermente più bassa, ma manifesta maggior robustezza tramite le percentuali più o meno allineate.\\

\textbf{Caso Ottimo}\\
~\\
Per quando riguarda il caso ottimo, apparte subito evidente dalla tabella 2 che il file \textit{04378673.pdf} sia quello che fornisce una precisione completa ($100\%$) sia per quanto riguarda l'estrazione delle entries, sia l'estrazione dei titoli che per il collegamento alle risorse web. Il suddetto articolo contiene 11 riferimenti bibliografici che compaiono esattamente nel html di riepilogo. Oltre a ciò anche tutti i titoli sono stati estratti nella maniera corretta e collegati alle rispettive risorse web. Questo ultimo risultato postivo è motivabile sia perchè la ricerca tramite WebService Google è avvenuta sulla base del titolo esatto sia perchè probabilmente per tutte quelle 11 citazioni sono presenti delle risorse web in rete. L'errore più comune infatti che si verifica nel collegamente di ogni voce citata alla risorsa web è che a volte non vi è un risorsa web relativa al suddetto articolo e ovviamente si procede a collegare l'articolo con qualcosa di simile che però non è la risorsa giusta. \'E bene sottolineare che comunque questo problema non dipende dalla nostra applicazione, quanto piuttosto dall'eterogeneità dei documenti su internet.\\

Ci si potrebbe chiedere come mai questo caso ottimo mantenga comunque una percentuale piuttosto bassa ($36,41\%$) sulle testo BibTex trovato: il motivo è da attribuirsi alla scarsità di risorse web che contengono il BibTex degli articoli; si è cercato di prelevare il BibTex dalle principali \textit{Scientific Digital Library} scrivendo tre parser per Citeseer,Portal.Acme e IEEExplore. Questo ci ha permesso circa un terzo delle volte di recuperare il BibTex, ma ovviamente quando la risorsa web è un link diretto ad PDF oppure un portale come Springerlink che non contiene BibTex è stato impossibile effettuare la ricerca. Discorso simile va fatto per il recupero dei PDF, già accennato precedentemente: in questo caso si ottiene un indice del $72,7\%$, ma è da sottolineare che eventuali Pdf scaricati non corrispondenti non sono stati contati per il calcolo dell'indice.


Un ultima cosa da osservare è che nell'articolo \textit{thrun.pdf}, uno di quelli senza un template ben preciso per la bibliografia, sono presenti 35 entries bibliografiche, ma il nostro applicativo ne riporta ben 39. Questo è dovuto al fatto che 4 entries vengono aggiunte in modo errato poichè una entry viene estratta come se fossero due, provocandone l'aumento. Questo quindi è un caso che sottolinea come l'errore può manifestarsi non solo in un ``taglio'' da parte di alcuni pezzi di bibliografia, ma anche nell'aggiunta di alcune parti che invece dovrebbero essere unite alle precedenti.


